[新機能] AWS Glue Data Catalog の Apache Icebergテーブルの自動最適化機能がVPC対応したので試してみました

[新機能] AWS Glue Data Catalog の Apache Icebergテーブルの自動最適化機能がVPC対応したので試してみました

Clock Icon2024.11.22

AWS事業本部コンサルティング部の石川です。AWS Glue Data Catalog の Apache Icebergテーブルの自動最適化機能がVPC対応したので試してみました。

Apache Icebergテーブルの自動最適化機能がVPC対応とは

AWS Glue Data Catalogは、Apache Icebergテーブルの自動最適化機能を提供し、データの圧縮、スナップショット管理、孤立(Orphan)データの処理などを行います。この機能により、日々のIcebergテーブルのメンテナンスタスクが簡素化されました。その機能については、過去のブログで紹介しています。

https://dev.classmethod.jp/articles/20241005-aws-glue-data-catalog-optimization/

しかし、インターネット経由のデータレイクへのアクセスを許可しない環境(境界型セキュリティ)の場合、Icebergテーブルのデータを保存しているS3のバケットポリシーで、アクセス経路やプリンシパルを制限します。この場合、基本パブリックサービスであるGlue は、テーブルの最適化ができなくなっていました。そこで登場したのが、本日ご紹介する Apache Icebergテーブルの自動最適化機能がVPC対応です。

特定のVPC環境からのみアクセス可能なApache Icebergテーブルの自動最適化により、セキュリティを維持しながらストレージの最適化とクエリパフォーマンスの向上が可能になります。

新しい AWS Glue Data Catalog の「Network」という Connections の作成

Apache Icebergテーブルの自動最適化機能がVPC対応を仕組みは、AWS Glue Data Catalog に新たに「Network」という Connections が導入され、テーブルの自動最適化機能に設定できるようになりました。

Connectionsの作成は、Data Catalog のメニューの Connections を選択して作成します。数多くの Connections がありますので、検索で「network」と入力して、Network の コネクションを選択しています。

aws-glue-data-catalog-optimization-in-vpc-1

接続を許可しているVPC、Subnet、Security Group を選択します。

aws-glue-data-catalog-optimization-in-vpc-2

ここで、Connectionsの名前を設定します。

aws-glue-data-catalog-optimization-in-vpc-3

[Create connection] を押すと作成完了です。

aws-glue-data-catalog-optimization-in-vpc-4

テーブルの自動最適化機能のVPC対応を試す

今回の検証環境は、AWSの関山さんも共同執筆している AWS Big Data Blog 「AWS Glue Data Catalog supports automatic optimization of Apache Iceberg tables through your Amazon VPC」Cloudformation テンプレートを利用しました。

aws-glue-data-catalog-optimization-in-vpc-8

Table optimaization の作成は、Data Catalog のメニューの Tables を選択、テーブルの自動最適化したいIcebergフォーマットのテーブルを選択すると下記の画面が表示されます。[Table optimaization - new] のタブを選択、[Enable optimaization]ボタンを押します。

aws-glue-data-catalog-optimization-in-vpc-5

Optimaization configuration の Optimaization settings を選択すると画面下が広がり設定できるようになります。 IAM role と、さらに Virtual private cloud (VPC) - optional に先ほど作成したConnectionをプルダウンから選択します。最後に[Enable Optimaization]ボタンを押すと完了です。

aws-glue-data-catalog-optimization-in-vpc-6

少し待つと、Snapshot retention status と Orphan file deletion statusは、実行されstatus が Successになりました。Compaction Status は、削除対象に時間がかかるのでEnableになっています。

aws-glue-data-catalog-optimization-in-vpc-7

まとめ

AWS Glue Data Catalogの Apache Icebergテーブル自動最適化機能がVPC対応したことで、セキュリティを強化しつつデータ管理の効率化が可能になりました。この新機能により、インターネットアクセスを制限する環境でも、特定のVPC内からApache Icebergテーブルの最適化が実行できるようになりました。

AWS Glue Data Catalogの自動最適化機能は、VPC対応によりセキュリティ要件の厳しい環境でもIcebergテーブルのメンテナンスを簡素化します。この機能は、AWS Glueがサポートするすべてのリージョンで利用可能です。

合わせて読みたい

https://aws.amazon.com/jp/blogs/big-data/aws-glue-data-catalog-supports-automatic-optimization-of-apache-iceberg-tables-through-your-amazon-vpc/

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.